Model Selection

GRPO Algorithm Optimization

# GRPO Algorithm Optimization

Qwen2.5 0.5B Instruct Gensyn Swarm Fierce Placid Whale

A fine-tuned version based on Gensyn/Qwen2.5-0.5B-Instruct, trained using the TRL framework and GRPO algorithm

Large Language Model

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase